优博微享2022 | 阎建玮:基于大规模树库的跨语言语序类型计量研究
编者按
浙江大学优秀博士学位论文成果展作为提升研究生学位论文质量的举措之一,重点展陈2022年校优秀博士学位论文成果,充分发挥优秀博士学位论文的示范引领作用,营造“对标一流、追求卓越”的高质量学位论文发展氛围,构建更加卓越的研究生教育体系,培养胸怀“国之大者”的高层次拔尖创新人才和领导者。浙江大学研究生教育将持续推出“优博微享”专题,介绍获奖论文、导师及作者的相关情况,以期给同学们的科研学习生涯提供经验参考。
基于大规模树库的跨语言语序类型
计量研究
作者姓名:阎建玮
指导老师:刘海涛
所属学院:外国语学院
一级学科:外国语言文学
01
博士论文简介
语序类型是现代语言类型学的研究重点。本文基于大规模标注语料库,采用计量语言学方法,从离散与连续双重视角,对语言谱系分类的三个层面,即跨语系、跨语族、跨语支的基本语序特征进行系统探查。从蕴涵共性的验证,到语言类型的区分,最后到语序与形态之间的协同演化,本文从宏观到微观,从整体到局部,对语序类型进行了精确的度量、建模与解释。本文所基于的语料涵盖类型学数据库与计算语言学数据库,所使用的指标具有可计算性与可解释性,所采用的视角符合语言类型学的范式,通过将交叉学科语料、现代科学方法、多维研究视角有机融合,对语言各层面的语序类型量化特征进行分类、概括与解释,能够为计量类型学研究提供新视野与新参考。
02
导师说
在格林伯格1963年发表的现代语序类型学奠基性文章中,他多次使用"除了偶然出现的情况外""在远远超过随机频率的多数情况下"等语句,这说明格林伯格列举的语言普遍规律本质上是一种统计规律。也可以说,类型学本身是一个数据驱动的语言学分支学科。统计规律的发现离不开真实的语言数据,建玮的博士论文基于数十种语言的句法标注语料库对语序类型的统计规律进行了多层次的研究。这项研究在揭示基本语序规律、展现语言共性与差异、解释语言动态演化、促进类型学回归概率本源等方面均有重要的意义,是中国学者在数智时代对语言类型学的发展做出的极有意义的贡献。
03
作者说
时光荏苒,白驹过隙。读博四年,有太多回忆,受益一生;有太多感谢,溢于言表。
1
好奇驱动,静水流深
“好奇是做研究的原动力”——这是我的导师刘海涛教授常说的一句话。这句话一直激励着我去发现问题、解决问题。也正是因为这一份好奇心让我真正走进计量语言学研究的大门,开启语言类型学、跨语言比较及数字人文的交叉学科研究,去探索语言奥秘、发现语言规律、参与语言学研究的科学化与国际化。
与此同时,路漫漫其修远,求学的道路不可能一帆风顺,除保持好奇心外,秉持坚持不懈的态度也是我学到的非常重要的一点。只有日积月累,持之以恒,才能对自己的研究有更加深入的理解与认识,才能在满足自己好奇心的同时产出有价值的学术成果。
2
师恩似海,教泽绵长
求学之路漫漫,感恩导师刘海涛教授一直以来对我的帮助与支持。刘老师已连续八年蝉联爱思唯尔“中国高被引学者”,在他指导的博士生中,已有2人荣获浙江省优秀博士论文。但谁能想到,他曾是某大型国有企业的教授级高级工程师。是对语言学持续的好奇与深入的研究,让刘老师毅然决然地转型进入高校从事教学与科研工作。刘老师这种对学术的热忱以及对语言学问题的好奇也深深地感染着我。
此外,刘老师为人正直、知识渊博、风趣幽默,不仅是我学术上的榜样,也是我人生路上的引路人。丰富的阅历让刘老师看问题的角度十分独到:自己想不通的问题,刘老师一两句话就能找到关键,为我答疑解惑。能够成为刘老师的学生是我求学生涯中莫大的幸运,而刘老师对我的所有帮助,我也都将铭藏于心。
3
感恩母校,期许未来
浙大的科学精神和人文氛围、老师们的专业素养与学者风范为每一位浙大学子在“浙里”的学习、生活提供了广阔的平台与无限的可能。在“浙里”,我有幸目睹了紫金港南大门的启用,陪伴母校度过了建校125周年纪念日;我见过东五教学楼的玉兰吐露芬芳,也赏过东六的樱花烂漫;启真湖畔的夏荷、麦斯威的欢声笑语、教室里老师的谆谆教诲……这一切都如此美好。
当然,我也会铭记一个个攻坚克难的夜晚,一次次与导师的促膝长谈,反复字斟句酌的焦虑,论文拒稿后的怅惘,以及论文接收时的欣喜……这些也都将留存在我的记忆深处,化作永恒。而这一段段纯粹的、为了满足好奇心、探索未知的美好回忆也将激励着每一位像我一样的浙大学子开启下一段全新的旅程。
04
学术成果
本文从不同语系间的跨语系语序普遍规律、同一语系内的跨语族语序类型学分类以及同一语族内的跨语支语序协同演化三个层面,使用计量语言学方法,对跨语系、跨语族、跨语支的语序类型特征进行度量、建模与解释。
首先,在跨语系语序普遍规律部分,研究发现跨语系语序普遍规律在本质上并非绝对共性,而是一种概率倾向。其次,在跨语族语序类型学分类部分,量化结果说明各语族语言在语序类型学上既存在共性,又存在差异。最后,在跨语支语序协同演化部分,研究表明语言是一个动态协同系统,人类倾向于使用“省力原则”编码语言,而这种编码方式正是语言在人的驱动下自调节、自适应的结果。
本文的研究结果说明,量化手段能够很好地捕获语言的语序类型特征在各个层面上所呈现出的规律、类别与模式。与此同时,基于大规模树库探索语序的类型学特征展现出了强大的生命力与可能性。本研究丰富了语序类型学的研究维度,拓展了计量语序类型学研究的边界,对于促进类型学的“量化转向”具有重要价值,能够为语言学研究、跨语言比较等提供新的借鉴。
本文编辑 | 李韵淼
责任编辑 | 郭磊艳